Supervisión densa y actualizaciones dispersas en OPD
Analizamos la estructura de actualizaciones en OPD: son pequeñas, dispersas y aprovechan subredes, revelando claves para optimización post-training.
Analizamos la estructura de actualizaciones en OPD: son pequeñas, dispersas y aprovechan subredes, revelando claves para optimización post-training.
Descubre cómo la reintroducción del contexto puede degradar el rendimiento de modelos destilados y cómo un nuevo regularizador de consistencia lo soluciona.
¿Sabías que reintroducir el contexto a un modelo destilado puede empeorar su rendimiento? Descubre cómo un ligero regularizador lo evita.
RLCSD mejora la autodestilación al contrastar señales con pistas correctas e incorrectas, superando la deriva de estilo y obteniendo mejores resultados que GRPO en razonamiento.
Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.
Descubre cómo destilar modelos de lenguaje entre familias sin compartir tokenizador. Nuevo algoritmo de mapeo de tokens logra mayor eficiencia.
Nuevo método KAT detecta trampas de acuerdo KL en destilación on-policy, mejorando precisión 2.66% y reduciendo tiempo de entrenamiento 59.73%.
SG-OPD introduce un verificador binario para mejorar la destilación on-policy, superando a métodos anteriores en problemas de razonamiento matemático.
Descubre cómo OPDLM transforma modelos autoregresivos en difusivos con destilación on-policy, reduciendo tokens de entrenamiento hasta 7000x sin perder rendimiento.
ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.
ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.
Descubre cómo los modelos de lenguaje pueden influirse entre sí de forma encubierta, propagando comportamientos sin dejar rastros visibles. Analizamos interfaces y mitigaciones.
FiRe-OPD mejora la destilación on-policy con filtrado de trayectorias y repesado suave de tokens. Obtén +6.25 en AIME 2024 y +18.81 en Miner ¡Optimiza tus LLMs!
TrOPD estabiliza la destilación on-policy de LLMs usando regiones de confianza, superando la divergencia profesor-alumno. Mejora razonamiento, código y benchmarks.
TrOPD estabiliza la destilación on-policy en LLMs con regiones de confianza. Supera a OPD, EOPD y REOPOLD en razonamiento y código. ¡Descubre cómo!
Descubre OmniOPD: destilación on-policy sin logits que mejora matemáticas +28% y supera a modelos propietarios.
Descubre cómo SCOPE mejora el razonamiento de los LLMs con destilación adaptativa dual, logrando un 11.42% más de precisión.
Descubre cómo las críticas de modelos débiles pueden potenciar modelos de lenguaje fuertes mediante destilación on-policy, mejorando razonamiento y alineación para supervisión escalable.
Aprende cómo OPD+ redefine la destilación on-policy eliminando sesgos del gradiente stop y mejorando modelos de lenguaje con f-divergencia.
Mejora el razonamiento de LLMs con TOPD: destilación on-policy con guía futura aumenta precisión del 47.8% al 52.2%.